在边缘计算中,必须根据用户移动性迁移用户的服务配置文件。已经提出了强化学习(RL)框架。然而,这些框架并不考虑偶尔的服务器故障,尽管很少会阻止Edge Computing用户的延迟敏感应用程序(例如自动驾驶和实时障碍物检测)的平稳和安全功能,因为用户的计算作业不再是完全的。由于这些故障的发生率很低,因此,RL算法本质上很难为数据驱动的算法学习针对典型事件和罕见事件方案的最佳服务迁移解决方案。因此,我们引入了罕见的事件自适应弹性框架火,该框架将重要性采样集成到加强学习中以放置备份服务。我们以与其对价值函数的贡献成正比的稀有事件进行采样,以学习最佳政策。我们的框架平衡了服务迁移和迁移成本之间的迁移权衡,与失败的成本以及备份放置和移民的成本。我们提出了一种基于重要性抽样的Q-学习算法,并证明其界限和收敛到最佳性。随后,我们提出了新的资格轨迹,我们的算法的线性函数近似和深Q学习版本,以确保其扩展到现实世界情景。我们扩展框架,以适应具有不同风险承受失败的用户。最后,我们使用痕量驱动的实验表明我们的算法在发生故障时会降低成本。
translated by 谷歌翻译